首页> 外文OA文献 >Solving Visual Madlibs with Multiple Cues
【2h】

Solving Visual Madlibs with Multiple Cues

机译:用多个线索解决Visual madlibs

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

This paper presents an approach for answering fill-in-the-blank multiplechoice questions from the Visual Madlibs dataset. Instead of generic andcommonly used representations trained on the ImageNet classification task, ourapproach employs a combination of networks trained for specialized tasks suchas scene recognition, person activity classification, and attribute prediction.We also present a method for localizing phrases from candidate answers in orderto provide spatial support for feature extraction. We map each of thesefeatures, together with candidate answers, to a joint embedding space throughnormalized canonical correlation analysis (nCCA). Finally, we solve anoptimization problem to learn to combine scores from nCCA models trained onmultiple cues to select the best answer. Extensive experimental results show asignificant improvement over the previous state of the art and confirm thatanswering questions from a wide range of types benefits from examining avariety of image cues and carefully choosing the spatial support for featureextraction.
机译:本文提出了一种从Visual Madlibs数据集中回答空白选择题的方法。我们的方法不是针对ImageNet分类任务训练的通用和常用表示形式,而是针对特定任务(例如场景识别,人员活动分类和属性预测)训练的网络的组合。我们还提出了一种对候选答案中的短语进行定位以提供空间的方法支持特征提取。我们通过标准化规范相关分析(nCCA)将这些特征中的每一个与候选答案一起映射到联合嵌入空间。最后,我们解决了一个优化问题,以学习将在多个线索上训练的nCCA模型的得分结合起来,以选择最佳答案。大量的实验结果表明,与现有技术相比,已有显着的改进,并且证实了从各种类型中回答问题都受益于检查各种图像线索并精心选择了特征提取的空间支持。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号